Cơ sở dữ liệu MNIST
Cơ sở dữ liệu MNIST

Cơ sở dữ liệu MNIST

Cơ sở dữ liệu MNIST (tiếng Anh: MNIST database, viết tắt từ Modified National Institute of Standards and Technology database[1]) là một cơ sở dữ liệu lớn chứa các chữ số viết tay thường được dùng trong việc huấn luyện các hệ thống xử lý hình ảnh khác nhau.[2][3] Cơ sở dữ liệu này cũng được sử dụng rộng rãi để huấn luyện và kiểm thử trong lĩnh vực học máy.[4][5] Cơ sở dữ liệu được tạo ra bằng cách "trộn lại" các mẫu từ bộ dữ liệu ban đầu của NIST.[6] Những người tạo ra cơ sở dữ liệu cảm thấy rằng vì tập dữ liệu đào tạo của NIST được lấy từ Cục Thống kê Dân số Hoa Kỳ, trong khi tập dữ liệu thử nghiệm lại được lấy từ các sinh viên trung học Hoa Kỳ, vì vậy nó không phù hợp cho các thí nghiệm học máy.[7] Hơn nữa, những hình ảnh đen trắng từ NIST đã bình thường hóa để khớp với hộp giới hạn 28x28 pixel và khử răng cưa không gian (spatial anti-aliasing) với việc đã giới thiệu các mức thang độ xám.[7]